modin を使ってみよう
かきかけ...
Modin について
Modin には次のような特徴があります。
modin は データフレームに行列演算の機能を追加
バックエンドに Ray や Dask を利用した並列計算
簡単に利用できる
Pandas を置き換えるもの
すべてのデータを処理装置のメモリに保存する必要があります。 ModinはCPUコア上でのみ実行されます。 GPUをなぜ使用しないのかという意見もあるでしょう。
しかし、GPUに搭載できるメモリは、システムに搭載できるメモリよりも遥かに小さいものです。特殊な手続きでCPUメモリをGPUにコピーすることもできますが、この処理により全体の計算速度は大幅に低下することがあります。
インストール
Modinは並列処理のためのバックエンドに Ray もしくは Dask を利用することができます。 そのため、インストールは次のように行います。
code: zsh Rayを利用する場合
code: zsh Daskを利用する場合
% pip install "modindask" 利用方法
Modin を利用するためには、次のようにインポートします。
これは、Pandas のインポートを置き換えるものです。
code: python
# import pandas as pd
import modin.pandas as pd
Rayを使用したとき
バックエンドに Ray を選んだとき、コア数が多いプラットフォームでは次のようなエラーが発生することがあります。
Could not connect to socket /tmp/ray/session_2019-04-23_18-41-58_28079/sockets/plasma_store
こうしたときは、次のようにインポートします。
code: python
import ray
ray.init(plasma_directory="/workspaces/sefik/temp")
import modin.pandas as pd